Набор в Инженерно-математическую школу НИУ ВШЭ и VK

Открыт набор в проекты ИМШ

для студентов технических направлений НИУ ВШЭ

Инженерно-математическая школа — совместный образовательный проект VK и НИУ ВШЭ, где студенты работают над реальными задачами под руководством экспертов VK и научных сотрудников университета.

Стартовал набор в мастерские по прикладному искусственному интеллекту, безопасной разработки и эксплуатации высоконагруженных систем, по сервисам и платформам ИИ Инженерно-математической школы НИУ ВШЭ и VK: 12 новых проектов, реальные задачи, участие в конференциях и спецпроектах VK - без отрыва от учебы.

Чтобы получить тестовое задание, зарегистрируйтесь. Без регистрации задание не будет принято к рассмотрению.

— 20 часов в неделю занимает работа в мастерских;

— Еженедельно или раз в две недели, в зависимости от проекта и мастерской, проходят созвоны или встречи с руководителем проекта или мастерской, а также с экспертом из VK — куратором проекта;

— Два раза в год команды презентуют итоги работы на демо-днях и рассказывают о своих планах до следующего демо.

Даты этапов отбора

Старт приема заявок и выдача тестовых заданий

13 марта, 10:00
Окончание приёма заявок и тестовых заданий

29 марта, 23:59
Проведение собеседований

с 30 марта
Оглашение результатов

6 апреля
Вводная встреча для новых участников

Начало апреля

В какие проекты идет набор?

Мастерская безопасной разработки и эксплуатации высоконагруженных систем

Башун Владимир Владимирович

Руководитель мастерской

Платформа для проектной кооперации студентов различных учебных организаций

Проект направлен на разработку платформы для проектной кооперации студентов на основе их профессиональной направленности и имеющихся навыков. Участники проекта будут работать над созданием или переработкой имеющейся платформы. При построении платформы участники столкнутся с задачами разных форматов от backend архитектуры до проработки UX решений.
В проект приглашаются участники по направлениям frontend, backend и дизайн. Обратите внимание, что в зависимости от выбранного направления тестовое задание будет отличаться.

Цель проекта: Разработка платформы для проектной кооперации студентов различных учебных организаций с фокусом на геймдев-направлении и потенциалом масштабирования.

Подробнее

Исследование методов оценки устойчивости LLM моделей и агентских систем на их основе к некорректным входным воздействиям

Проект направлен на исследование методов оценки устойчивости агентских систем и больших языковых моделей к некорректным, противоречивым и состязательным входным воздействиям. В рамках работы предполагается формализация типов некорректных запросов, разработка критериев поведенческой устойчивости и проведение сравнительного экспериментального анализа поведения моделей и агентных архитектур в условиях варьируемого входного контекста. Будет проведен комплексный анализ факторов, влияющих на стабильность ответов, согласованность действий и сохранение заданной политики поведения при многошаговом взаимодействии. Будет проведено исследование способов защиты агентских систем и больших языковых моделей от атак при помощи состязательных входных воздействий. Результатом проекта станет формализованная методика оценки и сравнительный анализ устойчивости исследуемых систем.

Цель проекта: Исследование и экспериментальное обоснование методов количественной оценки устойчивости агентских систем и больших языковых моделей к некорректным входным воздействиям.

Подробнее

Инструмент контроля безопасности ML моделей и датасетов

В рамках проекта должен быть разработан инструмент для оценки безопасности моделей машинного обучения и связанных с ними датасетов. С использованием нескольких открытых программных решений (OSS) будет реализован процесс дедупликации результатов, что позволит эффективно выявлять уязвимости и потенциальные угрозы.

Цель проекта — создать интегрированный ресурс, который обеспечит разработчиков необходимыми инструментами для анализа и повышения безопасности их ML-систем.

Проект требует знаний в области ML, программирования и кибербезопасности, что позволит развивать навыки сразу в нескольких направлениях.

Подробнее

Исследование методов атак и защиты предиктивных моделей ИИ

Проект посвящен исследованию и разработке открытых инструментов для обеспечения безопасности моделей машинного обучения (ML) и их датасетов. В рамках проекта будут реализованы методы проверки безопасности ML-моделей, включая анализ уязвимостей и векторов атак на платформах, таких как huggingface.co. Также будет составлена сравнительная таблица существующих инструментов с оценкой их эффективности в выявлении уязвимостей и защите от атак.

Цель проекта — помочь разработчикам и исследователям лучше понимать риски безопасности в машинном обучении и выбирать подходящие инструменты для защиты систем.

Подробнее

Требования к студентам:

Понимание основных концепций и алгоритмов машинного обучения
Знание основных принципов безопасности программного обеспечения и уязвимостей
Понимание концепций и опыт работы с библиотеками ML (TensorFlow, PyTorch).
Знание принципов безопасности и специфики атак на ML-модели.
Умение проводить анализ уязвимостей и опыт работы с инструментами тестирования безопасности.
Уверенное владение Python и опыт работы с API для интеграции.
Навыки написания технической документации и эффективная работа в команде.
Основы DevOps (желательно): понимание принципов CI/CD (непрерывной интеграции и доставки) для автоматизации процессов разработки и тестирования.

Что получат студенты:

Участие в проекте поможет развить навыки программирования, анализа данных, работы с ML-моделями и инструментами безопасности, что является важным для будущей карьеры в IT и Data Science
Навыки для дальнейших исследований и научных публикаций, что будет полезно для тех, кто планирует продолжить учебу в магистратуре или аспирантуре.
Безопасность в машинном обучении — это быстро развивающаяся область, и участие в проекте позволит быть на переднем крае технологий и трендов.
Опыт промышленного проекта под руководством кураторов из VK
Возможность попасть в штат VK.

Мастерская по прикладному искусственному интеллекту

Сластников Сергей Александрович

Руководитель мастерской

Learnable-frontend вместо log-mel в ASR (обучаемая прослойка)

Большинство современных систем автоматического распознавания речи используют фиксированные спектральные признаки — log-mel спектрограммы, изначально спроектированные под особенности человеческого слуха. Такой “жёсткий” фронтенд не учитывает специфику конкретных доменов (телефония, стримы, шумные пользовательские записи) и может выбрасывать информацию, потенциально полезную нейросетевой модели. Развитие end-to-end ASR привело к появлению обучаемых аудио-фронтендов, которые заменяют классический расчёт log-mel набором дифференцируемых фильтров и операций, оптимизируемых вместе с основной моделью

Проект направлен на разработку и исследование learnable-frontend слоя для существующей RNN-T системы (Conformer-encoder + языковой декодер), способного заменить log-mel, повысить качество распознавания и устойчивость к шумам/каналам при сопоставимых вычислительных затратах. Участники изучат существующие подходы (обучаемые фильтробанки, Sinc-фильтры, LEAF-подобные архитектуры), реализуют один или несколько вариантов фронтенда, интегрируют их в пайплайн ASR и проведут серию экспериментов на внутренних и открытых датасетах. Особое внимание будет уделено сравнению качества, робастности и стоимости инференса по сравнению с лог-мелом, а также практической интеграции решения в текущую инфраструктуру.

Цель проекта: Исследовать и разработать обучаемый аудио-фронтенд, который может заменить стандартный log-mel frontend в существующей ASR-модели, обеспечивая улучшение качества и/или устойчивости к шумам и каналам без существенного роста вычислительных затрат; подготовить прототип и рекомендации по внедрению в промышленные сервисы VK.

Подробнее

Streaming-контекст для декодера в ASR (stateful inference)

Современные системы автоматического распознавания речи всё чаще работают в стриминговом режиме: пользователю важна не только точность транскрипции, но и минимальная задержка при обработке длинных диалогов, звонков и голосовых сообщений. При этом модели типа RNN-Transducer с мощным языковым декодером (LLM-подобная NanoLlama) часто обучаются в оффлайн-режиме на полном контексте, а на продакшен-инференсе получают аудио небольшими окнами (чанками). Это приводит к разрыву текстового контекста между окнами, ухудшению качества на длинных высказываниях и нестабильному поведению при паузах, смене говорящего и обрывках соединения.

Проект направлен на разработку и исследование stateful-инференса для декодера: нужно научиться аккуратно хранить и переносить текстовый контекст (состояния декодера, историю токенов, KV-кэш) между чанками аудио, при этом корректно обрабатывать тишину, смену спикеров и границы сессий. Участники реализуют прототип стримингового пайплайна для существующей RNN-T модели (Conformer-encoder + NanoLlama-decoder), экспериментируют с различными стратегиями управления состоянием, измеряют влияние на качество распознавания и задержку, а также подготавливают рекомендации по интеграции решения в реальные продукты (голосовой поиск, распознавание звонков, онлайн-транскрибация).

Цель проекта: Разработать и исследовать методы управления контекстом в стриминговом декодере ASR, позволяющие сохранить или улучшить качество распознавания на длинных аудио-сессиях при ограниченной задержке и стабильной работе в условиях тишины, смены говорящего и реальных сетевых сценариев; подготовить прототип stateful-инференса, пригодный для интеграции в производственные сервисы VK.

Подробнее

Мастерская по сервисам и платформам ИИ

Архимандритов Игорь Борисович

Руководитель мастерской

Разработка интеллектуальной рекомендательной системы для платформы VK Play

Проект направлен на разработку и внедрение алгоритмов машинного обучения для системы персонализированных рекомендаций игр, стримов и околоигрового контента на платформе VK Play. Участники будут работать с реальными массивами данных о поведении пользователей (логи активности, транзакции, история игровых сессий), пройдя полный цикл разработки продукта: от создания надежного baseline-решения до внедрения сложных нейросетевых моделей ранжирования и запуска A/B-тестов на живой аудитории.

Цель проекта: Разработка современного высокопроизводительного алгоритма для решения задачи персонализации выдачи контента и кросс-селла продуктов, отвечающего следующим критериям: увеличение метрик вовлеченности (Retention Rate, Time Spent), рост конверсии в покупку/установку приложения (CTR, CR), а также способность системы выдерживать высокие нагрузки (Highload) с задержкой ответа (latency) не более 100 мс.

Побробнее

Разработка методов дистилляции энкодерных трансформерных языковых моделей в вычислительно-эффективные архитектуры нейронных сетей

В рамках проекта предлагается исследовать перенос знаний (дистилляцию) из сильных энкодерных моделей с открытыми весами (в качестве примеров можно упомянуть ModernBERT и семейства Qwen Embedding) в архитектуру DANet / DenseAttention и при необходимости – в альтернативные архитектуры с линейной или субквадратичной вычислительной сложностью.

DenseAttention / DANet (https://openreview.net/forum?id=RttNumxC1t)– это практичная замена и упрощение трансформерного механизма внимания / блока, которое делает архитектуру существенно более дружелюбным к реальному продакшену: модель остаётся концептуально простой и легко встраиваемой, при этом демонстрирует качество наравне с трансформерами, быстро работает на широком спектре устройств, включая CPU-only системы и более старые GPU, не требуя низкоуровневого кода. Архитектура имеет линейную вычислительную сложность, что является важным преимуществом для длинных последовательностей. В совокупности это даёт шанс дистиллировать качество от сильных трансформерных энкодеров в форму, которую проще и дешевле разворачивать и масштабировать в гетерогенной инфраструктуре.

Цель проекта: Разработка и экспериментальная валидация методов дистилляции/переноса знаний из современных энкодерных трансформерных моделей с открытыми весами в вычислительно-эффективные архитектуры, ориентированные на ускорение и упрощение вычислений на гетерогенной инфраструктуре и на улучшение практичности работы с длинными последовательностями.

Подробнее

FAQ

Кто может принимать участие в наборе на проекты?

Как подготовиться к поступлению?

Какие мне необходимы навыки, чтобы успешно пройти отбор и работать над проектом?

Возьмут ли меня после работы над проектом на работу в VK?

В проект могут попасть только студенты московского кампуса?

Могу ли я совмещать выполнение проекта с работой?

Могу ли я подать заявку на несколько проектов?

Все вопросы по отбору в Инженерно-математическую школу направляйте на почту info_pish@hse.ru

Набор в Инженерно-математическую школу НИУ ВШЭ и VK

Старт приема заявок и выдача тестовых заданий

Окончание приёма заявок и тестовых заданий

Проведение собеседований

Оглашение результатов

Вводная встреча для новых участников

Мастерская безопасной разработки и эксплуатации высоконагруженных систем

Платформа для проектной кооперации студентов различных учебных организаций

Исследование методов оценки устойчивости LLM моделей и агентских систем на их основе к некорректным входным воздействиям

Инструмент контроля безопасности ML моделей и датасетов

Исследование методов атак и защиты предиктивных моделей ИИ

Мастерская по прикладному искусственному интеллекту

Learnable-frontend вместо log-mel в ASR (обучаемая прослойка)

Streaming-контекст для декодера в ASR (stateful inference)

Мастерская по сервисам и платформам ИИ

Разработка интеллектуальной рекомендательной системы для платформы VK Play

Разработка методов дистилляции энкодерных трансформерных языковых моделей в вычислительно-эффективные архитектуры нейронных сетей

FAQ

Кто может принимать участие в наборе на проекты?

Как подготовиться к поступлению?

Какие мне необходимы навыки, чтобы успешно пройти отбор и работать над проектом?

Возьмут ли меня после работы над проектом на работу в VK?

В проект могут попасть только студенты московского кампуса?

Могу ли я совмещать выполнение проекта с работой?

Могу ли я подать заявку на несколько проектов?